基本概念:

  • 频繁项集(frequent item set):经常出现在一起的物品集合
  • 关联规则(associational rules):暗示两种物品之间可能存在很强的关系
  • k项集:如果事件A中包含k个元素,那么称这个事件A为k项集,并且事件A满足最小支持度阈值的事件称为频繁k项集Pasted image 20240604153258.png
  • Apriori算法用于减少计算量的策略:Pasted image 20240604153452.png
    • Pasted image 20240604153509.png

算法过程

输入:

  • 交易数据清单
  • 最小支持度(minSupport)

过程:

  1. 从k()项集开始找,在找出来所有满足最小支持度的频繁k项集
  2. 之后,把所有频繁k项集组合成k+1项集,然后令k = k+1
  3. 重复上述步骤,直到不满足最小支持度

输出:

  • 所有不同k的频繁项集

如何确定强关联关系?

  • 关联关系由可信度衡量:Pasted image 20240604154508.png
    • 因此,要找到所有的强关联规则,只需要对得到的所有k>1的频繁项集进行如下操作
      • 遍历项集中n个元素(n从1开始,到n-1结束)作为被规则(另外k-n个元素)推导出来的结果
      • 计算该规则的可信度
      • 如果大于minConf,则把这条规则认为成强规则。